#Google TPU
GPU時代落幕?矽谷巨頭集體「叛逃」,輝達1500億瘋狂自救
去GPU化的浪潮,已經攔不住了!OpenAI嫌輝達太慢,Anthropic砸1486億投奔TPU,老黃被迫200億天價收購「叛徒」自救。如今,算力軍備賽正式進入能效為王的新時代:誰先卡住「每焦耳每微秒」的極限,誰或許就是下一個十年的霸主。再過兩周,黃仁勳將站上GTC 2026的舞台。他提前放了話:「我們準備了幾款世界上前所未見的全新晶片。」底氣來自一份炸裂的成績單——輝達2026財年年收入2159億美元,淨利潤翻倍,資料中心業務三年翻了13倍。在財報電話會上,CFO直接甩出一個數字:客戶已經部署了9吉瓦的Blackwell基礎設施!但詭異的一幕出現了。財報發佈當晚,輝達盤後一度漲超4%。隨後股價悄然轉跌,次日直接低開低走,收跌5.46%,一夜蒸發數千億美元市值。華爾街不是看不懂數字,是看懂了趨勢。前有Anthropic甩出210億美元訂單,全面採購基於GoogleTPU的算力系統;後有Meta跟Google簽下數十億美元晶片大單,大規模租用TPU訓練模型。為了給程式設計帶來接近即時的響應體驗,OpenAI更是歷史上首次將主力級產品GPT-5.3-Codex-Spark,部署在了更低延遲與更低能耗的非GPU晶片Cerebras上。輝達最大的幾個客戶,正在集體分散籌碼。全球AI晶片中GPU架構和非GPU架構比例(資料來源:高盛全球投資研究部)根據摩根大通的產能報告,Google計畫在2027年部署600至700萬顆TPU,大部分供給Anthropic、OpenAI、Meta和蘋果等外部客戶。高盛投資研究部的模型顯示,全球AI伺服器中非GPU晶片出貨佔比,將從2024年的36%升至2027年的45%。類似的,IDC也預測,到2028年,中國非GPU伺服器市場規模佔比將逼近50%。GPU的致命短板一個更深層的轉折正在發生:AI的競爭焦點,正從單純的算力規模,轉向對能效比與延遲的極致追求。過去拼誰卡多、誰叢集大。現在拼的是,同樣花一塊錢,誰能吐出更多Token。「每美元產生的Token數」正在取代峰值算力,成為衡量晶片商業價值的核心指標。究其原因在於,GPU的架構決定了,每次計算時資料都要在外部視訊記憶體和計算單元之間來回搬運。路徑長、次數多,能耗就高、延遲就大。堆更多卡解決不了這個問題。路透社爆料,OpenAI已多次表達對輝達晶片的「不滿」——響應速度沒達預期,在程式碼生成產品Codex上感受尤為明顯。壓力迫使輝達這條「巨龍」尋求改變。圖靈獎得主David Patterson教授在最新研究中指出,大模型每次token生成都繞不開資料搬運,而搬運能耗遠高於計算本身。未來的核心命題是「讓資料離計算更近」。為此,他給出了三個AI晶片的演進方向:近記憶體處理、3D堆疊、低延遲互連。實際上,這些都指向同一件事——用架構創新降低資料搬運的能耗和延遲。換句話說就是,誰能用更低的能耗、更低的延遲跑通下一代模型,誰就能在未來十年的算力牌桌上佔得先機。GoogleTPU殺向商用市場一直以來,GoogleTPU專供自家大模型訓練和推理,外人用不到。去年開始,Google把TPU推向了商用。訂單隨即湧入。博通CEO透露,Anthropic下了210億美元的大單;Meta簽下數十億美元TPU租賃協議;潛在客戶還包括蘋果和已與SpaceX合併的xAI。原因不難理解。大模型進入規模化落地階段,算力需求爆發、成本壓力加劇,單一依賴GPU的瓶頸越來越明顯。而GoogleTPU的性能,已經具備與頂級GPU分庭抗禮的實力。2025年推出的第七代TPU,是Google迄今為止性能最高、可擴展性最強的AI晶片——單晶片峰值算力4614 TFLOPS(FP8精度),最大叢集9216顆晶片、總算力達42.5 EFLOPS。劃重點:TPU v7在同等算力輸出下功耗僅為輝達B200的40%至50%。不僅如此,Google自研的光電路交換機(OCS)技術,還讓萬卡級叢集實現近乎線性的加速比。相比之下,傳統GPU叢集規模越大,通訊損耗越嚴重;而TPU叢集基本不吃這個虧。Google TPU v5e、v5p、v6、v7晶片關鍵性能對比GoogleTPU崛起還有更為直接的例證:在TPU上訓練的Gemini 3,在多個權威基準測試中位居榜首,為業界頂尖模型之一。回到成本帳上。TPU憑藉AI專用架構帶來的2-4倍能效優勢,將大模型推理的綜合成本相比GPU拉低50%以上。而這正是Anthropic、Meta們用訂單投票的根本邏輯。當下,大多數大模型企業已經在用TPU+GPU的組合來緩解成本壓力。去年11月,半導體研究機構SemiAnalysis對比大模型公司的採購成本後發現:與OpenAI相比,同時使用TPU與GPU的Anthropic,在與輝達談判時擁有更強的議價權。手裡有TPU,就多了一張跟老黃討價還價的牌。未來頭部AI公司大機率都會走「多晶片平行」路線。OpenAI與Anthropic購買算力的成本對比性能跨越式提升,頂尖大模型規模化驗證,頭部公司主動佈局——TPU已從算力產業的補充路線,升級為主流路線。輝達一家獨大的格局,正在被改寫。十年磨一劍「TPU之父」要造下一代AI晶片2025年底,輝達斥資200億美元,拿下AI晶片創企Groq的核心技術和團隊。這是輝達史上最大的一筆交易,溢價近三倍。Groq創始人Jonathan Ross,被稱為「TPU之父」,GoogleTPU的核心設計者之一。離開Google後,他創立Groq的目標很明確:做一顆超越GoogleTPU的晶片。兩者的差異在架構。GoogleTPU走的是「固定架構+叢集擴展」路線。其中,晶片內部搭載固定計算單元,依託二維資料流運算;晶片間通過3D Torus拓撲實現高效互聯。架構穩定,但靈活性有限。GoogleTPU架構Groq的TSP(Tensor Streaming Processor)則是一種「軟體定義硬體」的資料流處理器。其核心理念是,通過建構可重構的軟硬體系統,在保持可程式設計性的同時,達到接近ASIC的極致性能。具體來說,晶片內部做了功能切片化微架構設計,配合軟體層的靈活配置,可根據不同任務即時調整計算邏輯和資料流路徑。同時,依託大容量片上SRAM及靜態調度機制,顯著提升了資料訪存效率並降低搬運能耗。美國DARPA「電子復興計畫」(ERI)高度看好「軟體定義硬體」方向,將其列為國家級戰略核心。這也是Groq被稱為「高階TPU」的原因。資料顯示,在相同推理任務中,Groq晶片首token延遲比GoogleTPU v7降低20%至50%,每token成本降低10%至30%。這場晶片革命,才剛開始加速Groq被收編,但「高階TPU」的進化沒停。國內清微智能、海外Cerebras等公司正在高效資料流動態配置和先進整合方式上持續突破。1. 通過3D Chiplet技術建構三維立體資料流架構。具體來說,「計算核心+3D DRAM芯粒」的組合在垂直與水平兩個維度上形成了高效的資料流計算模式,突破了傳統二維架構的效率侷限。三維架構可以依據計算任務的需求和資料特性,在兩個維度上靈活調度資料流,最大化縮短傳輸路徑,降低搬運過程中的延遲與能耗,從而進一步提升整體計算效率。2. 依託算力網格技術建構靈活資料流計算範式。傳統固定組網存在擴展性和語義適配瓶頸。而算力網格技術則可以通過靈活組網,實現Scale up與Scale out的協同。根據AI任務特性,系統能即時下發資料流的動態配置資訊,在多種互聯拓撲結構間靈活切換、精準調度。最終降低互聯延遲,充分釋放資料流架構的算力。3. 通過前沿的晶圓級晶片技術,將資料流架構的優勢發揮到極致。這項技術將資料流架構從晶片尺度擴展到整片晶圓。在整張晶圓上高密度整合大量計算核心,計算核心間的互聯距離被極大縮短。帶來的結果是,互聯頻寬實現數量級提升,通訊延遲大幅降低。資料流架構的算力規模與計算效能由此被推到極致。這也是為什麼晶圓級晶片被視為資料流計算架構的理想物理載體。以Cerebras為例。資料顯示,Cerebras CS 3系統推理性能比輝達旗艦DGX B200快21倍,成本與功耗均降低三分之一,在算力、成本、能效上展現出顯著的綜合優勢。在實測中,OpenAI的Codex-Spark跑出了每秒超1000 token的生成速度,讓程式碼編寫第一次有了即時互動的體驗。Cerebras CS-3 vs輝達GPU:大模型推理速度對比GPU獨霸的時代,回不去了GoogleTPU走出圍牆,OpenAI擁抱晶圓級晶片,輝達天價收編Groq。這些訊號均指向同一個方向:算力世界的單極格局正在鬆動。定義下一代AI上限的,不再是單純的算力規模,而是能耗、延遲、確定性共同構成的AI新標尺。對於國產晶片而言,這是窗口,也是分水嶺。簡單復刻只能分得殘羹,唯有在底層架構上走出自己的創新之路,才有資格進入下一輪博弈。 (新智元)
全球算力格局震盪,“高階TPU”崛起!
非GPU時代大幕拉開。頭圖由AI生成芯東西3月2日消息,近日,多家外媒報導,非GPU晶片應用迎來爆發期,前有Meta傳已與Google簽署數十億美元合作,大規模租用TPU訓練模型;後有OpenAI被曝計畫匯入輝達基於Groq技術的AI推理晶片。這些重磅合作正是全球AI算力格局加速重構的縮影。2026年伊始,摩根大通的一份產能報告流出:Google計畫在2027年部署600-700萬顆TPU,大部分將供給Anthropic、OpenAI、Meta以及蘋果等外部客戶。無獨有偶,2月13日,OpenAI上線GPT-5.3-Codex-Spark。這款模型選擇了一家特殊的晶片廠商來承接推理任務——Cerebras,一個以“晶圓級晶片”挑戰輝達的“叛逆者”。這是OpenAI首次在主力模型上大規模採用非GPU晶片完成部署,背後原因在於Cerebras帶來的更低延遲與更低能耗,為即時程式設計帶來接近即時的響應體驗。僅僅半年之前,全球AI產業的目光還牢牢鎖定在輝達的財報和產能分配上,人們爭相與這家算力巨擘結成利益同盟。如今,全球頭號AI玩家們紛紛重新規劃未來幾年的晶片訂單。IDC預測,到2028年,中國非GPU伺服器市場規模佔比將接近50%;高盛投資研究部的模型顯示,全球AI伺服器中非GPU晶片出貨佔比,將從2024年的36%增長至2027年的45%。▲全球AI晶片中GPU架構和非GPU架構比例(資料來源:高盛全球投資研究部,芯東西製圖)面對日益清晰的算力變局,一個更深層的轉折正在發生:AI的競爭焦點正從單純的算力規模,深刻轉向對能效比與延遲的極致追求。這一轉折,將GPU推向尷尬境地:由於每次計算都需要在外部視訊記憶體和計算單元之間頻繁往返搬運資料,這種冗長的傳輸路徑讓GPU始終受困於高能耗和高延遲的先天缺陷。路透社爆料,OpenAI已多次表示對輝達晶片的“不滿”——響應速度未達預期,在程式碼生成產品Codex上感受尤為明顯。壓力迫使輝達這條“巨龍”尋求改變。2025年底,輝達不惜以近三倍溢價拿下Groq核心技術與團隊。這家公司的創始人Jonathan Ross正是GoogleTPU核心設計者。被稱為“TPU之父”的他,創立Groq的初衷就是要打造一款超越GoogleTPU的AI晶片。最終,輝達以200億美元的天價,買下了這把“高階TPU”之劍。去GPU化的趨勢仍在繼續。沒有人願意把未來十年的基礎設施押注在一個能耗大、延遲高、系統封閉的技術上。但這場算力變局的核心懸念尚未解開:TPU能否真正扛起對抗GPU的大旗?那個讓輝達不惜押下重注的Groq,又藏著怎樣的技術底牌?01.從自用到商用:GoogleTPU擾動全球算力格局一直以來,GoogleTPU都作為其內部的核心算力支撐,專供自家大模型訓練與推理使用。而去年至今,Google策略發生重大轉變,被曝要正式將TPU推向商用市場。巨額訂單迅速湧向Google。博通CEO透露,AI明星公司Anthropic下單了總額210億美元(約1486億元人民幣)的訂單,採購基於GoogleTPU建構的AI算力系統;與此同時,Meta被曝已與Google達成數十億美元的AI晶片交易。此外,潛在客戶還包括蘋果,以及已與SpaceX合併的xAI等,TPU市場規模持續擴大。這背後是雙重機遇的疊加。一方面,大模型進入規模化落地階段,全球算力需求爆發、成本壓力加劇,單一依賴GPU的架構瓶頸日益凸顯。另一方面,GoogleTPU的性能已具備與頂級GPU分庭抗禮的實力——2025年推出的第七代TPU,是Google迄今為止性能最高、可擴展性最強的AI晶片:單晶片峰值算力4614 TFLOPS(FP8精度),最大叢集9216顆晶片、總算力達42.5 EFLOPS。TPU v7在同等算力輸出下功耗僅為輝達B200的40%至50%。更為關鍵的是,依託自研光電路交換機(OCS)技術,其萬卡級叢集可實現近乎線性的加速比,顯著降低了傳統GPU叢集在萬卡規模下的通訊效率損耗。▲Google TPU v5e、v5p、v6、v7晶片關鍵性能對比(圖片來源:SemiAnalysis)GoogleTPU崛起還有更為直接的例證:在TPU上訓練的Gemini 3,在多個權威基準測試中位居榜首,為業界頂尖模型之一。此外,對於大模型公司而言,算力成本是繞不開的難題。“每美元產生的Token數”正取代峰值算力,成為衡量晶片商業價值的標尺。TPU憑藉AI專用架構帶來的2-4倍能效優勢,以及萬卡叢集近乎線性的擴展能力,將大模型推理的綜合成本相比GPU拉低50%以上——這正是Anthropic、Meta們用訂單投票的根本邏輯。因此,當下大多大模型企業會選擇採購TPU+GPU多元算力來緩解成本壓力。去年11月,半導體研究機構SemiAnalysis對比大模型公司的採購成本後發現:與OpenAI相比,同時使用TPU與GPU的Anthropic,在與輝達談判時擁有更強的議價權。這一事實表明:未來頭部AI公司,大機率都會轉向“多晶片平行”路線,以降低對單一架構的依賴、提升成本競爭力。▲OpenAI與Anthropic購買算力的成本對比(圖片來源:SemiAnalysis)綜上,GoogleTPU的性能跨越式提升、頂尖大模型的規模化驗證、頭部AI公司的主動佈局,這三重因素共同印證,TPU已從過去的全球算力產業補充路線,正式升級為全球算力競爭中的主流路線。這不僅打破了長期由輝達絕對主導的AI晶片格局,也為國內外算力晶片打開了全新發展窗口。02.不止於TPU:十年磨一劍,“TPU之父”探索更高階的可能然而,GoogleTPU的成功並非終點。國內外一批聚焦TPU晶片的創新企業快速崛起,它們擺脫復刻GoogleTPU的發展模式,逐步走出了一條差異化、多元化平行的發展之路。這其中的代表玩家,就是被輝達高價收購的AI晶片創企Groq。這家公司的創始人,被稱為“TPU之父”的Jonathan Ross,創立Groq的初衷就是要打造一款超越GoogleTPU的AI晶片。行業資深專家表示,二者的不同之處與晶片架構密切相關。GoogleTPU採用“固定架構+叢集擴展”的設計思路:其晶片內部搭載相對固定的計算單元,依託二維資料流模式開展固定化的算力運算;在晶片間互聯層面,則通過建構3D Torus拓撲結構,實現多晶片間的高效資料流傳輸與協同計算。▲GoogleTPU架構(圖片來源:Google官網)與GoogleTPU晶片的固定資料流不同,Groq的TSP(Tensor Streaming Processor)晶片是一種“軟體定義硬體”(Software Defined Hardware)的新型資料流處理器。“通過建構可重構的軟硬體系統,使其在保持可程式設計性的同時,達到接近ASIC的極致性能。”美國DARPA“電子復興計畫”(ERI)高度看好“軟體定義硬體”技術,並將其作為國家級戰略佈局的核心方向之一。這也是Groq被稱之為“高階TPU”的原因。通過晶片內功能切片化微架構的底層設計,結合軟體層面的靈活配置能力,TSP可根據不同任務場景和計算需求實現計算邏輯與資料流路徑對應。同時,該晶片依託大容量片上SRAM及靜態調度機制,在顯著提升資料訪存效率的同時還能有效降低資料搬運能耗,實現計算效率的提升。二者的性能表現對比,Groq的優勢也已經得到資料驗證。公開資訊顯示,在相同推理任務中,Groq晶片的首token延遲比GoogleTPU v7晶片降低20%~50%,每token成本降低10%~30%。架構選擇的背後,折射出整個產業對計算效率瓶頸的重新審視。電腦體系結構泰斗、圖靈獎獲得者David Patterson教授在最新研究中指出,大模型每次生成都繞不開資料搬運,而搬運能耗遠高於計算本身,未來的核心命題是“讓資料離計算更近”。為此,他提出了幾個AI晶片的演進方向:近記憶體處理、3D堆疊、低延遲互連。這些均指向同一個目標——用架構創新降低資料移動的能耗與延遲。David Patterson的洞察將AI規模化的競爭拉回最樸素的物理層面,誰能用更低的能耗、更低的延遲跑通下一代模型,誰就能在未來十年的算力牌桌上佔得先機。03.“高階TPU”含金量還在上升:三大創新將架構優勢發揮至極相比於Groq所強調的確定性資料流能力,國內的清微智能、海外的Cerebras等晶片企業在高效的多維度資料流動態配置及先進整合方式上,還在持續提升“高階TPU”的含金量。主要表現為如下幾個方面:其一,通過3D Chiplet技術建構三維立體資料流架構。依託“計算核心+3D DRAM芯粒”的組合,清微智能在“垂直+水平”兩個維度上形成高效資料流計算模式,核心目標是突破傳統二維資料流架構的效率侷限。具體而言,三維資料流計算架構可依據計算任務核心需求以及資料特性,在水平維度與垂直維度上實現資料流的靈活調度,最大化縮短資料傳輸路徑、提升資料流周轉效率,顯著降低資料搬運過程中的延遲與能耗,最終實現計算效率的進一步提升。其二,是依託算力網格技術建構靈活資料流計算範式。該技術可突破傳統固定組網的擴展性與語義適配瓶頸,通過靈活組網及Scale up與Scale out協同,能根據AI任務特性,即時下發資料流的動態配置資訊,實現在多種互聯拓撲結構間靈活切換和精準調度,降低互聯延遲,充分釋放資料流架構算力。其三,通過前沿的晶圓級晶片技術,將資料流架構的優勢發揮到極致。具體而言,晶圓級晶片技術將資料流架構思想從晶片內部擴展至整片晶圓尺度,在整片晶圓高密度整合大量計算核心,極大縮短計算核心間的互聯距離,實現數量級的互聯頻寬提升與通訊延遲的降低,從而將資料流架構的算力規模與計算效能發揮到極致,是資料流計算架構的理想物理載體。以Cerebras晶圓級晶片為例。實測資料顯示,Cerebras CS 3系統在推理性能上較輝達旗艦DGX B200 Blackwell GPU快21倍,成本與功耗均降低 1/3,在算力、成本、能效上展現出顯著的綜合優勢。▲Cerebras CS-3 vs輝達GPU:大模型推理速度對比(圖片來源:Cerebras官網)04.結語:AI算力規則正在重構當GoogleTPU走出圍牆、OpenAI擁抱晶圓級晶片、輝達天價收編Groq,這些訊號均指向同一個方向:TPU已變成巨頭們真金白銀押注的主戰場。算力世界的單極時代,正在被多元架構終結。決定下一代AI天花板的,不再是算力堆砌的軍備競賽,而是能耗、延遲、確定性共同構成的AI能力新指標。對於國產晶片而言,這場變局既是機遇也是挑戰。跟隨者只能瓜分殘羹,唯有走出自己的底層創新之路,才有資格參與下一輪全球算力洗牌。 (芯東西)
Google TPU v7和輝達GB300的架構,供應鏈差異
01.Google TPU V7 vs 輝達GB300 晶片差異在 AI 晶片領域,Google TPU 與輝達 GPU 的競爭已進入白熱化階段。作為雙方的旗艦產品,TPU v7(代號 “Ironwood”)與 GB300 分別代表了專用 ASIC 架構與通用平行計算架構的巔峰水平,二者在架構設計、性能參數、能效比、擴展性及成本等維度存在顯著差異,這些差異直接決定了它們在不同 AI 場景中的適配性。TPU v7 屬於ASIC晶片的類別。TPU v7 延續了Google TPU 系列 “犧牲通用性、追求張量運算極致效率” 的設計邏輯,核心架構圍繞深度學習中的矩陣乘法(張量運算核心)深度定製,更加適合推理場景,單晶片功耗中等。GB300 作為輝達 Blackwell 架構的旗艦產品,延續了 GPU “通用平行計算” 的核心優勢,兼顧張量運算、圖形渲染、科學計算等多場景需求,算力較高,適合高算力的AI大模型訓練,成本高,功耗高。02.Google TPU V7 vs 輝達GB300機櫃級架構差異從表面參數來看,TPU v7 與 GB300 的差異首先體現在機櫃尺度上。TPU v7 機櫃的熱設計功率約為 90kW,整櫃部署 64 顆 TPU 晶片,採用 16 台 2U 伺服器的形態。網路層面使用 OCS 光交換架構,機櫃內部不設定獨立交換機,算力節點之間通過高度定製化的光互連直接通訊。相比之下,GB300 機櫃的單櫃功率提升至約熱 150kW,晶片數量 72 顆,伺服器形態收斂為 18 台 1U 伺服器,並配備獨立的 InfiniBand / 乙太網路交換裝置。這種設計明顯更貼近當前主流 AI 資料中心的部署邏輯。但真正值得關注的,並不是功率或晶片數量的差距,而是兩種機櫃在設計目標上的根本不同。TPU v7 本質上是為 Google 內部算力體系定製的“算力終端”;而 GB300 則被定義為可以被反覆複製、快速部署的“標準算力模組”。02.Google TPU V7 vs 輝達GB300伺服器內部架構差異TPU v7 伺服器部署4顆TPU晶片。在 TPU v7 的伺服器內部結構中,液冷系統呈現出高度聚焦的特徵。TPU 晶片被單獨配置為 4 塊小冷板,液冷覆蓋範圍嚴格限定在算力核心之上,而 CPU、記憶體、電源模組仍然沿用風冷方案,儲存系統則未被納入液冷體系。TPU v7 採用 EPDM 軟管、Parker NSP 接頭與 Manifold 分配結構,配合 In-row CDU 使用。這種方案具備良好的安裝靈活性和成本可控性,非常適合 Google 這種自建、自維運的資料中心體系。在 TPU v7 的體系裡,傳統意義上的“交換機”本身就被弱化了。TPU Pod 裡真正承擔大規模互聯角色的,是 OCS(Optical Circuit Switch,光電路交換),這種方案更多是一個“光層調度裝置”,而不是高功耗、高算力的包轉發晶片裝置。這類 OCS 的特點是交換晶片功耗低、發熱密度分散、運行狀態極其穩定,遠沒有 GPU 或 NVLink / InfiniBand 交換 ASIC 那麼“熱”。從熱設計角度看,它根本沒有到必須引入液冷的門檻,用成熟的風冷方案完全可以覆蓋,而且風險更低。GB300伺服器部署4GPU+2GPU。液冷方案更加複雜,液冷覆蓋率95%,幾乎全液冷覆蓋,是小冷板結構,4+2方案,採用不鏽鋼波紋管、MOD + UQD 快接結構,以及 Rack / Row 級 CDU 相容設計,為長期運行、頻繁部署與快速維護而服務的工程選擇。GB300 使用的是新一代 InfiniBand 交換平台(對應 Quantum / Quantum-X 這一代架構),單顆交換 ASIC 的功耗已經進入數百瓦等級,並且連接埠速率、SerDes 數量、內部交換頻寬都在指數級提升。GB300的交換機是1u高度,採用液冷架構方案,Asic晶片部署液冷冷板。04.Google TPU V7 vs 輝達GB300 供應鏈差異由於輝達目前只提供L6板卡產品,不直接提供L10-L11整機伺服器,比如冷板,CDU等部件屬於L6之後的環節,不屬於輝達的直接環節,但是液冷系統又是非常重要的一環,所以為保障下遊客戶使用輝達晶片正常運行,輝達會提前設計一套整機系統提供給終端及伺服器OEM廠商參考,在液冷生態體系中,輝達要求通過一系列的認證測試進而確定各個液冷元件的RVL(推薦供應商名錄);要成為供應商進入RVL基本成為進入輝達液冷生態體系的強制性要求。在RVL基礎上,輝達GB200採用強制指定少數液冷部件供應商的模式,如 Vertiv 是輝達指定的系統級液冷合作夥伴。在這種模式下,液冷供應商將可能形成產能瓶頸,無法支撐GB300及後續產品的巨大需求。為降低供應鏈的風險,輝達在GB300上做出了調整,僅負責提供液冷部件設計參考及介面的規範;由此給予了ODM/OEM廠商更大的設計靈活性,並且由CSP或ODM/OEM在RVL範圍內自主選擇液冷部件供應商,為新供應商的進入創造了條件。在這種模式下,液冷部件供應商需要同時通過英偉 達RVL 認證以獲取配套資格,同時也需要進入OEM/ODM的AVL(合格供應商名錄)以確保在液冷系統整合階段被選用。Google與輝達的冷供應商選擇模式不同,Google目前不直接出售TPU晶片,而是出售google Colud的算力,資料中心多數採用自健,所以Google的所有資料中心基礎設施產品由google自己採購。因此Google液冷系統供應商會作為一級供應商直接向Google提供配套產品,液冷系統供應商將向Google指定的部件供應商採購液冷系統部件。因此對於國內廠商來說有更大的機會切入Google的供應鏈並且能夠持續獲得市場份額。 (零氪1+1)
高盛:成本暴降70%!GoogleTPU強勢追趕,性價比已追平輝達
高盛表示,Google/Broadcom 的TPU正在迅速縮小與輝達GPU在推理成本上的差距。從TPU v6升級至TPU v7,單位代幣推理成本下降約70%,與輝達GB200 NVL72基本持平。這並不意味著輝達地位被動搖,但它清晰地表明,AI晶片競爭核心評價體系正在從“誰算得更快”,轉向“誰算得更便宜、更可持續”。在AI資本開支仍維持高位、但商業化壓力不斷上升的當下,市場關注點正在發生一場悄然卻深刻的轉移:大模型還能不能繼續“無視成本地跑下去”。據追風交易台,高盛最新發佈的AI晶片研究報告,並未延續市場熟悉的“算力、製程、參數規模”對比,而是從更貼近商業現實的角度切入——推理階段的單位成本。通過建構一條“推理成本曲線”,高盛試圖回答一個對AI產業至關重要的問題:在模型進入高頻呼叫階段後,不同晶片方案在折舊、能耗和系統利用率等約束下,每處理一百萬個token究竟需要付出多少真實成本。研究結論指向了一次正在加速、但尚未被充分消化的變化:Google/Broadcom 的TPU正在迅速縮小與輝達GPU在推理成本上的差距。從TPU v6升級至TPU v7,單位token推理成本下降約70%,使其在絕對成本層面與輝達GB200 NVL72基本持平,部分測算情形下甚至略具優勢。這並不意味著輝達的地位被動搖,但它清晰地表明,AI晶片競爭的核心評價體系正在從“誰算得更快”,轉向“誰算得更便宜、更可持續”。當訓練逐漸成為前期投入,而推理成為長期現金流來源,成本曲線的斜率,正在取代峰值算力,成為決定產業格局的關鍵變數。一、從算力領先到成本效率,AI晶片競爭的評價標準正在切換在AI發展的早期階段,訓練算力幾乎決定了一切。誰能更快訓練出更大的模型,誰就擁有技術話語權。然而,隨著大模型逐步進入部署與商業化階段,推理負載開始遠遠超過訓練本身,成本問題被迅速放大。高盛指出,在這一階段,晶片的性價比不再只由單卡性能決定,而是由系統層面的效率共同塑造,包括算力密度、互聯效率、記憶體頻寬以及能源消耗等多重因素。基於這一邏輯建構的推理成本曲線顯示,Google/Broadcom TPU在原始計算性能和系統效率上的進步,已經足以在成本維度上與輝達正面競爭。相比之下,AMD和亞馬遜Trainium在代際成本下降幅度上仍較為有限。從現階段測算結果看,兩者的單位推理成本仍明顯高於輝達和Google方案,對主流市場的衝擊相對有限。二、TPU成本躍遷的背後,是系統工程能力而非單點突破TPU v7實現大幅降本,並非來自單一技術突破,而是系統級最佳化能力的集中釋放。高盛認為,隨著計算晶片本身逐步逼近物理極限,未來推理成本能否繼續下降,將越來越依賴“計算相鄰技術”的進步。這些技術包括:更高頻寬、更低延遲的網路互聯;高頻寬記憶體(HBM)和儲存方案的持續整合;先進封裝技術(如台積電CoWoS);以及機架級解決方案在密度與能效上的提升。TPU在這些方面的協同最佳化,使其在推理場景中展現出明顯的經濟性優勢。這一趨勢也與Google自身的算力部署高度一致。TPU在Google內部工作負載中的使用比例持續上升,已廣泛用於Gemini模型的訓練與推理。同時,具備成熟軟體能力的外部客戶也在加速採用TPU方案,其中最引人注目的案例是Anthropic向Broadcom下達的約210億美元訂單,相關產品預計將在2026年中開始交付。不過,高盛同時強調,輝達仍然掌握“上市時間”優勢。在TPU v7剛剛追平GB200 NVL72之際,輝達已經推進至GB300 NVL72,並計畫在2026年下半年交付VR200 NVL144。持續的產品迭代節奏,仍是其維持客戶黏性的關鍵籌碼。三、投資含義再平衡:ASIC崛起,但輝達的護城河尚未被擊穿從投資視角看,高盛並未因TPU的快速追趕而下調對輝達的判斷。該機構仍維持對輝達與Broadcom的買入評級,認為兩者最直接繫結AI資本開支中最具可持續性的部分,並將長期受益於網路、封裝和系統級技術升級。在ASIC陣營中,Broadcom的受益邏輯尤為清晰。高盛已將其2026財年每股收益預期上調至10.87美元,較市場一致預期高出約6%,並認為市場仍低估了其在AI網路與定製計算領域的長期盈利能力。AMD和亞馬遜Trainium當前仍處於追趕階段,但高盛也指出,AMD的機架級方案存在後發優勢的可能性。預計在2026年末,基於MI455X的Helios機架方案有望在部分訓練與推理場景中實現約70%的推理成本下降,值得持續跟蹤。更重要的是,這份研報給出的並非“贏家通吃”的結論,而是一幅逐漸清晰的產業分工圖景:GPU繼續主導訓練與通用算力市場,而定製ASIC在規模化、可預測的推理負載中不斷滲透。在這一過程中,輝達的CUDA生態與系統級研發投入仍構成堅實護城河,但其估值邏輯也將持續接受“推理成本下行”的現實檢驗。當AI真正進入“每一個token都要算回報”的階段,算力競爭終究要回到經濟學本身。TPU成本暴降70%,並不是一次簡單的技術追趕,而是一次對AI商業模式可行性的關鍵壓力測試。而這,或許正是GPU與ASIC之爭背後,市場最應認真對待的訊號。 (invest wallstreet)
Google TPU與輝達GPU對比分析
市面上有兩類比較典型的GoogleTPU和輝達GPU對比分析,一類是純技術層面討論,晦澀難懂,另一類會講得斬釘截鐵,但可信度難以判斷。今天我分享一篇通俗易懂,且信源可靠的TPU和GPU對比分析文章,信源來自於The Information對Google、輝達、蘋果等公司員工的訪談。租用最先進的GPU與最先進的TPU,那個性價比更優?這取決於雲服務提供商(註:AWS、Azure、Google雲)對GPU的收費標準,該標準可能會根據開發者對該晶片系統的承諾(使用)期限而有所不同。不過,由於在這些系統上運行應用程式涉及到軟體問題,因此很難對它們進行直接比較。對於已經使用輝達的CUDA程式語言在伺服器晶片上運行人工智慧的客戶來說,租用輝達晶片更具成本效益,而有時間和資源重寫程序的開發者則可以通過使用TPU來節省資金。不過,對於大多數開發者而言,輝達的軟體能讓他們快速且輕鬆地開始在GPU上運行人工智慧應用程式。像Anthropic、蘋果和Meta這樣經驗豐富公司在使用TPU時可能面臨的挑戰更少,因為他們更擅長編寫在伺服器晶片上運行人工智慧的軟體。根據對Google和輝達前員工的採訪,TPU相比GPU具有潛在的成本優勢,這取決於客戶運行的AI計算工作負載數量及其類型。對於使用GoogleGemini模型的客戶來說,TPU的成本效益可能尤為顯著,因為這些模型是基於TPU開發的。卓哥理解:1.價格不能直接比, 看合同期限,租1年和租3年價格肯定不同。2.絕大部分開發人員已經用慣了輝達CUDA軟體系統,用TPU會有遷移成本。3.基於TPU開發的大模型更具成本效應。我已經在不少於3處靠譜信源看到,基於TPU開發的Gemini相比於基於GPU開發的ChatGPT更具成本優勢。輝達首席執行長黃仁勳曾表示,即便競爭對手的晶片定價為零,企業們仍會更青睞輝達的晶片。這種說法精準嗎?事情並非如此簡單。生產輝達晶片的台積電會謹慎地避免將過多的晶片製造和封裝產能投入到單一公司,因此輝達不太可能獲得其滿足客戶需求所需的全部產能。由於輝達通常無法獲得足夠的產能來滿足整體需求,市場對其競爭對手的晶片將會有需求。卓哥理解:台積電不希望輝達一家獨大。其實下游晶片代工廠產能給誰很重要的,不是說晶片設計公司想要多少產能就有多少產能。大摩不是說GoogleTPU 2026年要產300萬顆(利用博通與台積電良好關係)嗎?最近又傳出消息說今年不一定能產300萬顆,台積電可能沒這麼多產能給Google。最先進的TPU(Ironwood)和最先進的GPU(Blackwell)在計算能力或其他關鍵指標(如能效)方面有什麼區別?一位行業高管表示,以每秒兆次浮點運算(FLOPS)來衡量(卓哥註:這是AI開發人員衡量晶片計算能力的常用方式。),Google最先進的TPU在單晶片基礎上的性能是輝達最先進GPU的一半。Google可以將搭載數千個TPU的伺服器整合到一個計算單元中,這使得它們在開發新的人工智慧模型時特別有用且具有成本效益,而輝達最多隻能連接256個GPU。當然輝達的晶片客戶可以通過使用額外的網路電纜連接其資料中心的伺服器來克服這一限制。卓哥理解:單兵作戰,TPU性能只有GPU一半,但TPU可以用人海戰術堆料。TPU運行AI的方式與GPU有何不同?GPU能夠處理各種各樣的計算任務,從渲染視訊遊戲圖形到訓練大型語言模型。這種晶片在機器學習模型所需的重複性數學運算方面表現出色,特別是將數字網格相乘的過程,也就是所謂的矩陣乘法。Google的TPU更加專門化,能夠比GPU更快地處理矩陣乘法和運行某些AI模型。TPU之所以能做到這一點,是借助了脈動陣列——一種由簡單計算器組成的網格,這些計算器以有節奏的模式相互傳遞資料。這種設計使數字能在計算過程中持續流動,無需不斷從晶片記憶體中調取資料,從而避免了時間和能量的浪費。TPU效率更高,因為它只做一件事,但這也意味著它們只在特定軟體上運行良好。GPU可以被用來完成更多種類的任務。卓哥理解:之前還看過一個訪談,說TPU的風險之一就是通用性不好,中途切換做其他(非初始設定)任務的效果遠不如GPU。在處理大語言模型或大型視覺、視訊模型方面,TPU與GPU相比有那些優缺點?TPU為Google的人工智慧開發者提供了相較於GPU的成本優勢,因為該公司的人工智慧模型、應用程式和資料中心在設計時就考慮到了TPU。但TPU僅能與某些人工智慧軟體工具(如TensorFlow)順暢協作。然而,大多數人工智慧研究人員使用PyTorch,該工具在GPU上運行得更好。TensorFlow和PyTorch使開發者無需從頭編寫特定的軟體程式碼,就能訓練和運行人工智慧模型。對於視訊和視覺模型,TPU擅長執行圖像識別所需的重複性數學運算。它們通過將摺積(圖像模型中的核心計算)轉換為矩陣乘法來處理這些運算。但一些工程師表示,在開發視覺模型方面,GPU優於TPU,因為這一過程通常涉及對複雜圖像變換的試驗,例如旋轉、裁剪或調整顏色。那些公司使用TPU?據蘋果前員工及其人工智慧團隊發表的研究論文稱,蘋果長期以來一直使用TPU來訓練其最大的語言模型。人工智慧圖像公司Midjourney在2023年表示,它正在使用TPU來開發自己的模型。據一位瞭解這一轉變的人士透露,人工智慧開發商Cohere此前使用TPU開發模型,但去年由於在早期版本的TPU上遇到技術問題,轉而使用GPU。卓哥補充:還有其他案例是,一直用GPU然後切換去用TPU的公司。Google要在Google雲之外大量銷售TPU,需要具備那些條件?Google需要徹底改革其整個供應鏈,效仿輝達的商業模式,不僅要從代工廠獲得足夠的晶片,還要確保客戶能夠安裝這些晶片並可靠地使用它們。這意味著Google必須投入大量資金來發展銷售分銷網路,包括聘請生產晶片容納裝置的伺服器設計師,以及僱傭眾多工程師為TPU買家提供客戶支援和其他服務。卓哥理解:如果Google要外租或者賣TPU,先得到台積電拿到足夠產能配額,此外還得組建銷售和工程師支援團隊。生產最先進的TPU與生產最先進的GPU的生產成本相比如何?潛在成本可能相近。Google為Ironwood在台積電採用了比輝達為Blackwell所使用的更昂貴、更先進的晶片製造技術。但Ironwood晶片體積更小,這意味著台積電可以從一片晶圓上切割出更多晶片。這彌補了與昂貴矽片相關的額外成本。瞭解生產情況的人士表示,這兩款晶片都使用了相同類型的高頻寬記憶體。Google生產多少個TPU?這與其他人工智慧晶片相比如何?據摩根士丹利的最新估計,Google計畫在2026年生產超過300萬個TPU,2027年生產約500萬個。一位瞭解TPU項目的Google員工表示,公司已告知部分TPU客戶,其計畫在2027年生產更高數量的TPU,但目前尚不清楚台積電是否會同意在該年度生產這麼多TPU。Google通過博通公司訂購其最強大的TPU,博通與台積電有合作,同時也為TPU晶片本身提供一些輔助技術。據兩位瞭解生產情況的人士透露,輝達目前生產的GPU數量大約是Google生產的TPU的三倍。卓哥補充:除了博通,Google也已在與聯發科合作。博通在TPU的研發中扮演什麼角色?Google通過博通在台積電生產最強大的TPU,而且博通還負責TPU的物理設計,包括至關重要的晶片封裝,並且實質上是根據Google建立的藍圖來開發這款晶片。晶片封裝指的是晶片的組裝,隨著晶片上電晶體的縮小變得愈發困難,這一環節已成為整個流程中更為重要的部分。博通還為Google提供了設計TPU的一項關鍵智慧財產權:序列器/解串器,業內稱之為SerDes。這是實現高速資料在TPU之間傳輸以支援平行計算的最佳技術,通過這種技術,多個晶片可以協同工作——這是開發大語言模型的重要一步。Google和博通有時會因博通的TPU價格而產生分歧,這促使Google尋求聯發科等其他合作夥伴。聯發科即將生產一款性能稍弱的TPU,旨在幫助Google降低其人工智慧運行成本。博通從開發TPU中獲得的分成是多少?據分析師稱,這至少有80億美元。如果Google出售或出租TPU,讓它們進入其他公司的資料中心,這在經濟層面可能會產生什麼影響?目前尚不清楚Google向其雲客戶出租TPU能產生多少毛利率。除了伺服器晶片租賃業務外,它還可以向雲客戶銷售許多其他服務。這位前TPU高管表示,如果Google將TPU出售或出租給其他公司的資料中心,那麼這些設施需要按照高度特定的方式設計,類似於Google的資料中心,才能像Google在自身人工智慧應用中那樣,充分利用TPU帶來的成本優勢。此外,這樣做意味著Google將放棄從雲客戶那裡獲得的其他類型收入,比如儲存和資料庫相關收入,因此它可能會向TPU買家額外收費,以彌補這部分潛在的收入損失。.Google為何要追求一種更接近輝達的商業模式?Google已向潛在的TPU客戶表示,一些科技和金融服務公司出於安全等原因,希望將TPU安置在自己的資料中心——即非Google的資料中心。Google一直在與競爭對手雲服務提供商洽談為部分客戶託管TPU事宜。(卓哥註:典型如甲骨文)讓TPU得到更廣泛的應用,也有助於Google說服更多客戶使用其Gemini人工智慧模型,這些模型是針對TPU進行最佳化的。與運行TPU的軟體相比,開發者更熟悉輝達晶片及其運行的軟體。像JAX、PyTorch XLA這樣的新解決方案是否正在縮小這一差距?簡而言之,答案是否定的,不過Google正努力改變這一現狀。而且,Google還向潛在的TPU客戶推介將這些晶片與特製的Google軟體配合使用,這樣能讓晶片的運行更為便捷。 (卓哥投研筆記)
輝達:三十年未有之大變局
目前,Google正積極接觸那些依賴租賃輝達晶片的小型雲服務提供商,勸說它們在資料中心託管Google的TPU處理器。首戰告捷,Google已與倫敦的Fluidstack達成協議,將在紐約的一個資料中心部署TPU。同時,Google的觸角伸向了為OpenAI建造資料中心的Crusoe,以及向微軟租賃晶片並與OpenAI簽有供應合同的CoreWeave——後者被業內視為輝達的親兒子。這一系列動作,意圖再明顯不過:Google不僅要搶奪輝達的客戶,更要直接切入其最核心、利潤最豐厚的AI算力供應鏈。輝達以200億美元現金,收購初創公司Groq的核心資產,這筆交易不僅刷新了輝達自身的歷史收購紀錄,遠超其2019年以70億美元收購Mellanox的規模,更以雷霆之勢,將一顆冉冉升起的輝達挑戰者直接納入麾下。此次遠非一次簡單的收購,而是一場精心策劃的戰略圍剿。畢竟已經冒出來一家GoogleTPU了,輝達不允許再有任何真正的挑戰者存在,要麼被擊敗,要麼被收購。01Google的決心Google為這一戰所做的鋪墊,遠比我們想像的更為漫長,也更為深遠。早在2015年,第一代TPU v1的性能優勢,就已經在AlphaGo的演進中得到了最戲劇化的體現:1)AlphaGo Fan(2015年10月):擊敗歐洲冠軍樊麾的版本,運行在Google雲上,動用了1202個CPU和176個GPU的分佈式叢集。2)AlphaGo Lee(2016年3月):擊敗李世石的版本,同樣在雲端運行,但硬體已取代為僅48個第一代TPU。計算裝置從上千個銳減到幾十個,背後的電力、機房空間和維運成本呈數量級下降。3)AlphaGo Master(2017年5月):戰勝世界第一柯潔的版本,運算量僅為上一代的十分之一,甚至可以在單台伺服器上運行,僅需4個第一代TPU。從1202個CPU+176個GPU,到4個TPU。這組對比再直觀不過地揭示了專用AI晶片帶來的效率飛躍。第一代TPU的成功,迅速從實驗室走向了Google龐大的產品線,被部署到Google搜尋、廣告、YouTube以及雲平台等服務的每一次請求中,處理著每天數百億次的推理任務。自此,Google意識到,他們需要的不是一顆更快的通用晶片,而是一把為特定任務量身定製的手術刀。TPU項目應運而生,其設計哲學極其清晰:為神經網路推理任務做極致最佳化,追求極致的性能功耗比,放棄GPU使用的32位浮點數,轉而使用8位整數INT8進行計算。這大幅減少了電晶體數量、功耗和記憶體頻寬需求,而精度損失對於許多推理任務而言是可接受的。但是TPU v1僅專注於推理,而AI發展的瓶頸正迅速轉向需要巨大算力的大模型訓練環節。Google的TPU迭代之路就此全面展開,其升級不僅體現在單晶片性能,更在於系統級和生態級的突破。此後,TPU迅速迭代:1)TPU v2/v3:首次支援訓練任務。更重要的是,Google提出了 “TPU Pod” 的概念,通過高速網際網路絡將成千上萬個TPU晶片連接成一個超級電腦,為訓練大型模型提供了可能。2)TPU v4:性能顯著提升,並開始通過Google雲對外提供服務,但主要客戶仍是Google自身和少數雲使用者。3)TPU v5p:被視為一個重大飛躍,在一些基準測試中與輝達H100相當。同時,推理需求再次爆發,v5系列中更側重低價的v5e版本,將戰略重心轉回高性價比、高吞吐量的推理,旨在以更低成本服務海量使用者。4)TPU v6 (Trillium) 與 v7 (Ironwood):最新的兩代產品。TPU v6在理論算力上已非常接近輝達H200,而v7則進一步縮小了與輝達旗艦產品在發佈時機和理論算力上的差距。v7 Ironwood首次支援FP8計算格式,單晶片FP8算力與輝達B200非常接近,屬於同一性能梯隊。在系統層面,由近萬顆晶片組成的Ironwood超級叢集總算力也達到了與輝達Blackwell系統相當的等級。Google的策略很清晰,從滿足內部需求出發,用十年時間,逐步將TPU打造成一項可對外銷售的雲端運算核心服務——2025年,GoogleTPU全年出貨量預計為250萬顆,其中v5系列佔190萬顆,v6系列佔60萬顆;2026年,預計全年出貨量將高達400萬顆,其中v7 Ironwood佔據主導地位將超過200萬顆。從數量上來看,輝達資料中心GPU在2026年出貨量約600萬顆,TPU的追趕勢頭已經不容小覷。02輝達的正面交鋒Google的戰略,正在發生根本性轉變:從自產自用的封閉生態,轉向直面市場的晶片供應商。2023-2026四年時間,GoogleTPU的總產量預計高達800萬顆。然而,僅2027和2028兩年,其新規劃的總產量就高達1200萬顆。這意味著,Google計畫用未來兩年時間,生產遠超過去四年總和的晶片。這種擴張速度在半導體行業堪稱罕見,不僅遠超市場預期,更清晰地指向一個目標——大規模商業化。如此龐大的產能規劃,已遠遠超出Google自身雲服務Google Cloud的預期需求。兩年1200萬顆的規模,瞬間將TPU推向了與一線AI晶片廠商比肩的層級。這筆產能經濟帳,是Google轉型的核心動力。以此推算,若Google在2027年實現100萬顆TPU的對外銷售(約佔其當年規劃產量500萬顆的20%),即可創造約260億美元的新增營收。作為對比,這相當於Google雲2024年全年營收的相當大一部分,凸顯了其成為新增長極的潛力。若2027年500萬顆、2028年700萬顆TPU的預測成真,那麼到2028年,GoogleTPU的年產量將直逼輝達GPU的預計出貨規模。這意味著在短短兩年內,Google可能從一個主要的晶片消費者,轉變為一個能在供應量上與輝達正面交鋒的競爭者。此前,TPU如同GoogleAI商業版圖的私人彈藥庫,專為驅動其搜尋、廣告、YouTube及雲平台AI服務而最佳化,這種垂直整合帶來了極高的效率和性能壁壘。然而,將其轉化為對外銷售的商品,意味著Google要直面截然不同的商業規則:標準化、軟體生態、客戶支援、市場價格競爭。Google的突破口在於提供 “AI解決方案”而非“AI通用晶片” 。它可以將TPU與自家強大的AI軟體棧(如TensorFlow、JAX)、雲服務和預訓練模型進行打包,為客戶提供“開箱即用”的AI能力,以降低客戶整體擁有成本TCO。但這套策略也面臨嚴峻挑戰:輝達的CUDA生態歷經十餘年建設,已成為AI開發的事實標準,Google需要建構一個堪比CUDA的、開放且繁榮的開發者生態,這比製造晶片本身更為艱難;第三方客戶是否願意將AI未來押注在Google晶片上?這取決於TPU的性能、性價比、軟體相容性、長期支援承諾,以及客戶對“不被單一雲廠商繫結”的深度顧慮;作為後來者,TPU必須在性能或成本上提供顯著優勢,才能說服客戶遷移已基於輝達GPU建構的複雜工作流。頭部AI公司動向上看,TPU的吸引力是真實的。AI獨角獸Anthropic此前使用亞馬遜的Trainium晶片,最近被發現在招聘TPU核心工程師;馬斯克的xAI也對採購TPU表現出濃厚興趣。這些領先的模型開發商對算力成本極為敏感,它們的傾向是行業趨勢的最佳觀察——畢竟2025下半年,圍繞GoogleTPU的開發者活躍度也激增了近100%。GoogleTPU的產能激增,是一部剛剛拉開的序幕而已。前方的核心懸念早已不再是技術,而是商業模式的抉擇:Google能否成功將其技術優勢轉化為市場認可的開放生態和客戶信任?這場Google十年佈局的下半場,將決定TPU是止步於一個有力的挑戰者,還是真正成為重塑AI算力格局的顛覆性力量。面對圍攻,輝達並未坐以待斃。其反擊策略是:開放生態,以退為進。輝達正式發佈NVLink Fusion技術,允許資料中心將輝達GPU與第三方CPU或定製化AI加速器混合使用。這看似輝達正式打破自身硬體生態壁壘,實則是以GPU為核心,建構一個更包容、更強大的“輝達中心化”生態系統。輝達真正的核心壁壘,還是在於其軟體生態CUDA——畢竟主流AI框架無論是TensorFlow還是PyTorch都是通過呼叫CUDA的API進而在GPU上執行計算,其背後都是對CUDA庫函數的呼叫(如TensorFlow和PyTorch都會呼叫cuDNN來執行核心的神經網路計算)。03AI戰爭進入整合階段表面上看,這是一筆資產收購。但細究協議條款,其核心是一次典型的矽谷式人才收購。輝達並非全盤買下Groq公司,而是達成了一項“非獨家技術許可協議”,進而獲得Groq推理技術的授權。同時核心團隊整體遷移,Groq創始人兼首席執行長Jonathan Ross、總裁Sunny Madra,以及其他高級領導層將加入輝達,以推進所授權的技術。這種操作模式在科技巨頭間已屢見不鮮,2024年微軟也曾以6.5億美元挖走Inflection AI的創始人與核心團隊。其高明之處在於:既能以最快速度獲取頂尖人才和核心技術,又能最大程度規避傳統併購可能引發的反壟斷審查和整合難題。對於輝達而言,200億美元買下的不僅是技術,更是由前GoogleTPU核心班底組成的團隊。畢竟已經冒出來一家GoogleTPU了,輝達不允許再有任何真正的挑戰者存在,要麼被擊敗,要麼被收購。Groq團隊中匯聚了大量前GoogleTPU工程師,堪稱GoogleTPU核心班底的二次創業。他們帶著在Google未竟的抱負,旨在打造一款超越GPU和TPU的專用AI推理晶片。同時成本上,Groq其解決方案可低至同等性能GPU的十分之一,進而精準地擊中了接下來即將興起的AI產業推理階段的核心痛點,對輝達在推理市場的統治地位構成了直接威脅。黃仁勳絕非意氣用事。這筆天價收購背後,是輝達面對複雜競爭格局的深謀遠慮。訓練市場輝達已近乎壟斷,但推理市場格局未定。Groq在低延遲、高並行推理場景所展現出來的優勢,正吸引著那些對成本和延遲敏感的企業。通過收購,輝達直接將最具顛覆性的技術路線收入囊中,這本質上是一次昂貴的防禦性收購。長期來看,對於AMD、博通以及其他AI晶片初創公司,競爭環境更加惡劣。它們不僅要在技術上對抗輝達的“GPU+LPU(TPU)”組合拳,還要在資本和生態上應對輝達的進攻。如今回望,Google為這一戰所做的鋪墊,遠比我們想像的更為漫長,也更為深遠,但同時也更勝券在握。 (新財富)
Anthropic打響「去CUDA」第一槍!210億美元豪購Google100萬塊TPU
【新智元導讀】未發先贏,也只有Anthropic了!Claude一小時寫完Google一整年程式碼震撼全網,甚至,他們豪購100萬塊GoogleTPU自建超算。AI軍備賽拐點,或許就在這一年。2026年開局,Anthropic未發一彈已佔先機!Google首席工程師Jaana Dogan連發多帖,高度讚揚Claude Opus 4.5——僅用一小時,便復現了一個曾讓Google工程師鑽研整年的AI系統。另一個前Google和Meta科學家Rohan Anil觀點更具衝擊力:若借助Opus的智能編碼能力,自己早期長達六年的探索工作,可被高度濃縮至幾個月內完成。自發佈過去一個多月,Claude Opus 4.5真正的實力爆發了。沒有圖像/音訊模型、巨大的上下文,僅有一款專注編碼的Claude,Anthropic依舊是OpenAIGoogle最有力競爭者。這究竟是什麼神仙打法?聯創Daniela Amodei給出了一個直白有力的回答,「少即是多」。一直以來,Anthropic都在押注用最少的資源,做更多的事,才不會掉隊,始終跑在AI最前沿。豪購100萬塊TPU,自建超算相較於模型發佈,更重大的一件事是,Anthropic也要自建超算了。權威機構SemiAnalysis爆出,Anthropic準備買下近100萬塊TPU v7晶片。這批晶片將從博通直接下單,並將其部署在自控基礎設施中。整個部署架構是這樣的:Anthropic持有TPU的所有權,基礎設施部分交給了TeraWulf、Hut8和Cipher Mining合作夥伴來提供。至於現場的實際落地維運,比如布線、開機測試、上線驗收和日常遠端管理這些活,都外包給了Fluidstack來全權負責。目前,Google雖暫未公佈TPU v7單價,但依據行業推測,大概在15,000–25,000美元之間。Anthropic一出手就是100萬張,此前爆料稱,這筆交易金額或達210億美元。對於輝達來說,將丟失300億美元(B200)潛在大訂單。然而,這筆交易最危險的地方不在金額,而在於結構:這意味著,Anthropic自有超算將不再依賴CUDA生態,不再被雲廠商「算力稅」抽成,將算力主權握在手中。有網友表示,這顯然是一件大事。Google現在大力推行商用晶片戰略,這將在未來催生一個基於TPU建構的生態系統。畢竟,Google已經用Gemini 3實證了,不用GPU,TPU也可以訓出強大模型。2026年AI生死局,反向押注如今進入2026年,AI行業已演變為「暴力規模與效率」的較量。作為規模派的代表,OpenAI投入1.4兆美元用於算力和基礎設施建設。相較之下,Anthropic卻選擇了一條不同的道路——「花小錢辦大事」(Do more with less),把籌碼押在了三件事上:更高品質、結構更好的訓練資料明顯加強模型推理能力的後訓練技術以及極度現實的目標:讓模型跑得更便宜、更容易被大規模採用在CNBC採訪中,Daniela Amodei強調,公司一直以來都以審慎的態度利用資源。下一階段的勝利,不會僅靠最大規模的預訓練任務來贏得,而是取決於每一美元算力能交付多少能力。Amodei稱,我們在Anthropic一直以來的目標是——在這個單純依賴大量算力的領域運作時,儘可能審慎地利用我們擁有的資源。就算力和資本而言,Anthropic擁有的資源一直只是競爭對手的一小部分。然而,在過去幾年的大部分時間裡,我們都擁有最強大、性能最好的模型,一以貫之。當然,這並不意味著Anthropic「沒錢」。恰恰相反,這家公司目前已經鎖定了約1000億美元規模的算力承諾,而且他們自己也承認,如果要繼續站在前沿,這個數字只會繼續飆升。他們並不是否認Scaling。他們賭的是:規模並不是唯一的槓桿。Anthropic並沒有把自己定位成一個面向大眾的「消費級AI明星產品」。它更像是一個企業優先的模型供應商。Claude的主要收入來源,是被嵌入到別人的產品、工作流和內部系統中。這類場景雖無噱頭,但黏性更強、更接近真實生產力。Anthropic表示,他們的收入已經連續三年實現同比十倍增長。更罕見的是,他們還建構了一張非常不尋常的銷售策略:「Claude幾乎出現在所有主流雲平台上,包括那些同時也在賣自家競爭模型的雲廠商。」Daniela Amodei對此的解釋很直白:不是緩和關係,而是被客戶需求倒逼。大型企業希望在雲廠商之間保有選擇權,而云廠商也不願意因為模型問題失去最大客戶。下一階段真正的贏家,可能不是那個燒錢最多的實驗室,而是那個能在實體經濟承受範圍內持續改進的公司。「指數級增長會持續,直到它停止。」2026年真正的問題是:如果那條被整個行業奉為信仰的曲線,真的開始失靈——這場由算力堆起來的AI軍備競賽,是否還能體面收場?Claude Opus 4.5,刷屏了如今,全網都被Claude Opus 4.5震撼到了。Helius首席執行長表示,「Opus 4.5簡直瘋狂到離譜」。本人已程式設計十年,它卻可以根據提供系統設計指導,以及明確的自我驗證路徑,完成任何要求的任務。有開發者在短短半小時內,不寫一行程式碼,建構出一款iOS應用。同樣地,還有人在20分鐘內打造了類似ESPN風格的應用。有人用Claude程式設計一個程序,用攝影機記錄下了花開的時刻。就連Karpathy幾天前發文,自己也上手Claude Code,讓其接入智能家居系統。不僅如此,Claude Code不僅適用於程式設計,Pietro Schirano還將原始DNA資料輸入,並利用它找出了一些與健康相關的基因。One More Thing去年3月12日,《紐約時報》報導,Google持有Anthropic公司14%的股份。2024年,Anthropic將亞馬遜雲服務(AWS)確定為其主要訓練合作夥伴;亞馬遜將向Anthropic追加投資40億美元。此外,Zoom也有Anthropic部分股權。最近,Google被傳出正在洽談追加投資Anthropic。新一輪融資或將使Anthropic的估值突破3500億美元。不得不讓人懷疑,Google是不是要在2026年收購Anthropic?Claude Code要併入Google了?不過,Anthropic如此成功,有必要賣給Google嗎?而且,Anthropic一貫標榜「安全AI」,一旦被收購,「Google+Anthropic」毫無疑問地將終結AI競賽,OpenAI、微軟、輝達等另一方會甘心嗎?(新智元)